home *** CD-ROM | disk | FTP | other *** search
/ Linux Cubed Series 7: Sunsite / Linux Cubed Series 7 - Sunsite Vol 1.iso / libs / linux.wor / linux / usr / dict / README.linux.words < prev    next >
Encoding:
Text File  |  1993-03-13  |  9.6 KB  |  210 lines

  1. #!/bin/sh -xe
  2. # README.linux.words - file used to create linux.words
  3. # Created: Wed Mar 10 09:12:49 1993 by faith@cs.unc.edu (Rik Faith)
  4. # Revised: Sat Mar 13 17:02:08 1993 by faith@cs.unc.edu
  5. #
  6. # Care was taken to be sure that the linux.words list was free of
  7. # copyright.  This makes linux.words a suitable /usr/dict/words
  8. # replacement for the Linux community.
  9. #
  10. # Since the majority of the words are from Tanenbaum's minix.dict file,
  11. # the notice from Barry Brachman, included below, should accompany any
  12. # redistribution of this list.
  13.  
  14. # Here is a detailed explaination of how I created the linux.words file.
  15. #
  16. # This README.words file is actually a shell script that you can use to
  17. # recreate the linux.words file from original sources.
  18. #
  19. # First, I started with minix.dict
  20. # from cs.ubc.ca:/pub/local/src/sp-1.5/wordlists-1.0.tar.Z
  21. #
  22. # The following is from the NOTES file in wordlists-1.0.tar.Z:
  23.  
  24. # NOTES> These word lists were collected by Barry Brachman
  25. # NOTES> <brachman@cs.ubc.ca> at the University of British Columbia.  They
  26. # NOTES> may be freely distributed as long as this notice accompanies them.
  27. # NOTES> 
  28. # NOTES> ==================================================================
  29. # NOTES> Info for minix.dict:
  30. # NOTES> 
  31. # NOTES> Article 1997 of comp.os.minix:
  32. # NOTES> From: ast@botter.UUCP
  33. # NOTES> Subject: A spelling checker for MINIX
  34. # NOTES> Date: 6 Jan 88 22:28:22 GMT
  35. # NOTES> Reply-To: ast@cs.vu.nl (Andy Tanenbaum)
  36. # NOTES> Organization: VU Informatica, Amsterdam
  37. # NOTES> 
  38. # NOTES> This dictionary is NOT based on the UNIX dictionary so it is free
  39. # NOTES> of AT&T copyright.  I built the dictionary from three sources.
  40. # NOTES> First, I started by sorting and uniq'ing some public domain
  41. # NOTES> dictionaries.  Second, as some of you probably know, I have
  42. # NOTES> written somewhere between 3 and 6 books (depending on precisely
  43. # NOTES> what you count) and an additional 50 published papers on operating
  44. # NOTES> systems, networks, compilers, languages, etc.  This data base,
  45. # NOTES> which is online, is nonnegligible :-) Finally, I added a number of
  46. # NOTES> words that I thought ought to be in the dictionary including all
  47. # NOTES> the U.S. states, all the European and some other major countries,
  48. # NOTES> principal U.S. and world cities, and a bunch of technical terms.
  49. # NOTES> I don't want my spelling checker to barf on arpanet, diskless,
  50. # NOTES> modem, login, internetwork, subdirectory, superuser, vlsi, or
  51. # NOTES> winchester just because Webster wouldn't approve of them.  All in
  52. # NOTES> all, the dictionary is over 40,000 words.  If you have any
  53. # NOTES> suggestions for additions or deletions, please post them.  But
  54. # NOTES> please be sure you are not infringing on anyone's copyright in
  55. # NOTES> doing so.
  56. # NOTES> 
  57. # NOTES> Andy Tanenbaum (ast@cs.vu.nl)
  58.  
  59. # The main problem with minix.dict is that many proper names are not
  60. # capitalized.  So, I got english.tar.Z from ftp.uu.net:/doc/dictionaries,
  61. # which is a mirror of nic.funet.fi:/pub/unix/security/dictionaries.
  62. #
  63. # Here is part of the README file for english.tar.Z:
  64.  
  65. # README> 
  66. # README> FILE: english.words
  67. # README> VERSION: DEC-SRC-92-04-05
  68. # README> 
  69. # README> EDITOR
  70. # README> 
  71. # README>     Jorge Stolfi <stolfi@src.dec.com>
  72. # README>     DEC Systems Research Center
  73. # README>   
  74. # README> AUTHORS OF ORIGIONAL WORDLISTS
  75. # README> 
  76. # README>     Andy Tanenbaum <ast@cs.vu.nl>
  77. # README>     Barry Brachman <brachman@cs.ubc.ca>
  78. # README>     Geoff Kuenning <geoff@itcorp.com>
  79. # README>     Henk Smit <henk@cs.vu.nl>
  80. # README>     Walt Buehring <buehring%ti-csl@csnet-relay>
  81. #
  82. # [stuff seleted]
  83. #
  84. # README> AUXILIARY LISTS
  85. # README> 
  86. # README>     In the same directory as englis.words there are a few
  87. # README>     complementary word lists, all derived from the same sources
  88. # README>     [1--8] as the main list:
  89. # README> 
  90. # README>     english.names
  91. # README> 
  92. # README>         A list of common English proper names and their derivatives.
  93. # README>         The list includes: person names ("John", "Abigail",
  94. # README>         "Barrymore"); countries, nations, and cities ("Germany",
  95. # README>         "Gypsies", "Moscow"); historical, biblical and mythological
  96. # README>         figures ("Columbus", "Isaiah", "Ulysses"); important
  97. # README>         trademarked products ("Xerox", "Teflon"); biological genera
  98. # README>         ("Aerobacter"); and some of their derivatives ("Germans",
  99. # README>         "Xeroxed", "Newtonian").
  100. # README>     
  101. # README>     misc.names
  102. # README> 
  103. # README>         A list of foreign-sounding names of persons and places
  104. # README>         ("Antonio", "Albuquerque", "Balzac", "Stravinski"), extracted
  105. # README>         from the lists [1--8].  (The distinction betweeen
  106. # README>         "English-sounding" and "foreign-sounding" is of course rather
  107. # README>         arbitrary).
  108. # README> 
  109. # README>     org.names
  110. # README> 
  111. # README>         A short lists names of corporations and other institutions
  112. # README>         ("Pepsico", "Amtrak", "Medicare"), and a few derivatives.  
  113. # README> 
  114. # README>         The file also includes some initialisms --- acronyms and
  115. # README>         abbreviations that are generally pronounced as words rather
  116. # README>         than spelled out ("NASA", "UNESCO").
  117. # README> 
  118. # README>     english.abbrs
  119. # README> 
  120. # README>         A list of common abbreviations ("etc.", "Dr.", "Wed."),
  121. # README>         acronyms ("A&M", "CPU", "IEEE"), and measurement symbols
  122. # README>         ("ft", "cm", "ns", "kHz").
  123. # README> 
  124. # README>     english.trash
  125. # README>                 
  126. # README>         A list of words from the original wordlists
  127. # README>         that I decided were either wrong or unsuitable for inclusion
  128. # README>         in the file english.words or any of the other auxiliary 
  129. # README>         lists. It includes
  130. # README>         
  131. # README>           typos ("accupy", "aquariia", "automatontons")
  132. # README>           spelling errors ("abcissa", "alleviater", "analagous")
  133. # README>           bogus derived forms ("homeown", "unfavorablies", "catched")
  134. # README>           uncapitalized proper names ("afghanistan",
  135. # README>                                       "algol", "decnet")
  136. # README>           uncapitalized acronyms ("apl", "ccw", "ibm")
  137. # README>           unpunctuated abbreviations ("amp", "approx", "etc")
  138. # README>           British spellings ("advertize", "archaeology")
  139. # README>           archaic words ("bedight")
  140. # README>           rare variants ("babirousa")
  141. # README>           unassimilated foreign words ("bambino", "oui", "caballero")
  142. # README>           mis-hyphenated compounds ("babylike", "backarrows")
  143. # README>           computer keywords and slang ("lconvert", "noecho", "prog") 
  144. # README> 
  145. # README>         (I apologize for excluding British spellings.  I should have
  146. # README>         split the list in three sublists--- common English, British,
  147. # README>         American---as ispell does.  But there are only so many hours
  148. # README>         in a day...)
  149. # README> 
  150. # README>     english.maybe
  151. # README> 
  152. # README>         A list of about 5,000 lowercase words from the "mts.dict"
  153. # README>         wordlist [6] that weren't included in english.words.
  154. # README> 
  155. # README>         This list seems to include lots of "trash", like
  156. # README>         uncapitalized proper names and weird words.  It would
  157. # README>         take me several days to sort this mess, so I decided to
  158. # README>         leave it as a separate file.  Use at your own risk...
  159. #
  160. # [stuff deleted]
  161. #
  162. # README> (NON-)COPYRIGHT STATUS
  163. # README> 
  164. # README>   To the best of my knowledge, all the files I used to build these
  165. # README>   wordlists were available for public distribution and use, at least
  166. # README>   for non-commercial purposes.  I have confirmed this assumption with
  167. # README>   the authors of the lists, whenever they were known.
  168. # README>   
  169. # README>   Therefore, it is safe to assume that the wordlists in this
  170. # README>   package can also be freely copied, distributed, modified, and
  171. # README>   used for personal, educational, and research purposes.  (Use of
  172. # README>   these files in commercial products may require written
  173. # README>   permission from DEC and/or the authors of the original lists.)
  174. # README>   
  175. # README>   Whenever you distribute any of these wordlists, please distribute
  176. # README>   also the accompanying README file.  If you distribute a modified
  177. # README>   copy of one of these wordlists, please include the original README
  178. # README>   file with a note explaining your modifications.  Your users will
  179. # README>   surely appreciate that.
  180. # README> 
  181. # README> (NO-)WARRANTY DISCLAIMER
  182. # README> 
  183. # README>   These files, like the original wordlists on which they are
  184. # README>   based, are still very incomplete, uneven, and inconsitent, and
  185. # README>   probably contain many errors.  They are offered "as is" without
  186. # README>   any warranty of correctness or fitness for any particular
  187. # README>   purpose.  Neither I nor my employer can be held responsible for
  188. # README>   any losses or damages that may result from their use.
  189.  
  190. # subtract english.trash
  191. cat minix.dict english.trash english.trash | sort | uniq -u > dict.1
  192. # subtract english.maybe
  193. cat dict.1 english.maybe english.maybe | sort | uniq -u > dict.2
  194.  
  195. # build subtraction list of proper names and abbreviations
  196. cat english.names misc.names org.names computer.names english.abbrs > sub.1
  197. tr 'A-Z' 'a-z' < sub.1 | sort | uniq -u > sub.2
  198.  
  199. # subtract proper names with incorrect capitalization
  200. cat dict.2 sub.2 sub.2 | sort | uniq -u > dict.3
  201.  
  202. # build proper name list without possessives
  203. cat english.names misc.names org.names computer.names | fgrep -v \'s > names.1
  204.  
  205. # add in proper names (use sort twice to get uppercase before lowercase)
  206. cat dict.3 names.1 | sort | sort -df | uniq > linux.words
  207.  
  208. # clean up
  209. rm dict.[123] sub.[12] names.1
  210.